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基于 距离 和 密度 的 d-K-means 算法 
唐 泽 坤 ， 朱 泽 宇 ,， 杨 背 ， 李 彩虹 ， 李 康 
(兰州 大 学 信息 科学 与 工程 学 院 ， 兰 州 730000) 


摘 要 : K-means 算法 有 实现 简单 、 速 度 快 的 特点 ， 是 应 用 最 广泛 的 聚 类 算法 。 针 对 K-means 算法 对 初始 聚 类 中 心 
和 噪声 敏感 的 缺点 ， 提 出 了 d-K-means 算法 (distance&density) ， 在 K-means 算法 的 基础 上 权衡 了 密度 和 距离 对 聚 
类 的 影响 ， 对 数据 进行 加 权 处 理 ， 在 权 值 基础 上 引入 “最 小 最 大 原则 ”选择 初始 聚 类 中 心 ， 自 动 确定 类 中 心 个 数 。 
实验 结果 表明 ，d-K-means 算法 在 低 维 数据 与 高 维 数据 上 都 可 以 取得 较 好 的 聚 类 效果 ， 并 且 更 好 地 应 对 低 密 度 区 域 
数据 ， 更 好 地 进行 类 中 心 选择 。 
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D-K-means algorithm based on distance and density 


Tang Zekun, Zhu Zeyu, Yang Yi, Li Caihong, Li Lian 
(College of Information Science & Engineering, Lanzhou University, Lanzhou 730000, China) 


Abstract: K-means algorithm has the characteristics of simple implementation and fast speed, and is the most widely used 
clustering algorithm. To deal with the disadvantages of the K-means algorithm which is sensitive to initial clustering center 
and noise, the d-K-means algorithm is proposed. On the basis of the K-means algorithm, the d-K-means algorithm weighs 
the impact of density and distance on clustering to weight the data, and selects the initial clustering center by introducing the 
"minimax principle" on the basis of weight, and automatically determines the number of class centers. Experimental results 
show that d-K-means algorithm can achieve better clustering results on low-dimensional data sets and high-dimensional 
data sets, and better deal with low-density regional data , and better select class centers. 
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0 引言 中 心 周围 密度 都 较 大 ， 易 陷入 局 部 最 优 。 文 献 [7] 基 于 距离 最 
远 的 样本 点 不 可 能 分 到 同一 个 簇 中 , 避免 了 陷入 局 部 最 优 解 的 
聚 类 是 数据 挖掘 中 将 物理 或 抽象 对 象 的 集合 分 成 由 类 似 。 问题 ,但 是 没有 考虑 密度 ， 可 能 选择 噪声 点 作为 初始 类 中 心 。 
的 对 象 组 成 的 多 个 类 的 方法 。 由 聚 类 所 生成 的 簇 是 一 组 数据 对 ”文献 [8] 计 算 离 群 因 子 对 数据 集 进行 升序 排序 ， 使 中 心 点 位 置 
象 的 集合 , 这 些 对 象 与 同一 个 簇 中 的 对 象 彼此 相似 , 与 其 他 徐 。 靠 前 , 考虑 了 密度 的 影响 , 结合 “最 小 最 大 原则 ”选择 初始 中 心 
中 的 对 象 相 异 。“ 物 以 类 聚 ， 人 以 群 分 ”， 在 自然 科学 和 社会 科 ”点 , 不 会 陷入 局 部 最 优 , 但 可 能 误 将 低 密 度 区 域 数据 归 为 离 群 
学 中 ， 存 在 着 大 量 的 分 类 问题 上 。 点 ， 影 响 最 终 聚 类 效果 。 文 献 [9] 将 数据 对 象 根 据 密度 排序 ， 
K-means 算法 因 思想 较为 简单 且 易 实现 的 特点 , 成 为 应 用 ”每 次 选取 连接 密度 最 大 的 数据 点 和 与 其 距离 最 近 的 数据 点 的 
最 广泛 的 聚 类 算法 。 但 是 K-means 算法 也 有 局 限 性 ， 比 如 算 ”线段 中 点 作为 新 的 聚 类 中 心 , 然后 以 此 中 心 点 为 圆心 , 使 指定 
法 需要 预先 设 定 分 类 数量 , 用 户 在 对 数据 了 解 不 够 的 情况 下 难 ” ”半径 的 圆 内 数据 点 不 参加 接 下 来 的 聚 类 , 一 定 程度 上 解决 了 文 
以 给 出 合适 的 值 ; 男 一 个 局 限 性 体现 在 算法 初始 中 心 设置 的 随 ” 献 [8] 的 问题 ， 但 是 当 低 密度 区 域 与 高 密度 区 域 距离 较 大 时 ， 
性 使 聚 类 结果 易 陷 入 局 部 最 优 解 ， 并 且 聚 类 结果 不 稳定 站。 ” 低 密度 区 域 数 据 依旧 会 被 忽略 。 上述 算 法 生成 聚 类 中 心 上 述 算 
近年 来 ， 针 对 以 上 缺陷 ， 学 术 界 对 K-means 算法 B49 进行 。 法 都 需要 提前 确定 中 心 个 数 , 在 人 们 对 数据 集 研究 不 透彻 时 会 
了 多 种 优化 研究 。 文 献 [5] 计 算 所 有 样本 点 算术 平均 值 组 成 初 影响 聚 类 结果 精度 。 文 献 [10] 根 据 密度 参数 产生 初始 聚 类 中 心 
始 聚 类 中 心 ， 考 虑 了 全 部 数据 样本 的 分 布 情况 ， 改 善 了 点 候选 集合 , 然后 遍历 集合 中 的 数据 进行 模拟 聚 类 , 选择 类 
K-means 算法 初始 中 心 点 选择 的 随机 性 , 但 是 易 受 噪声 的 影响 。 ”分离 性 和 类 内 紧密 性 最 优 的 数据 点 , 充分 考虑 了 最 终 聚 类 效果 ; 
文献 [6] 构 造 最 小 生成 树 并 利用 树 的 减 枝 技术 基于 数据 分 布 动 但 算法 时 间 复 杂 度 很 高 , 密度 参数 的 计算 方法 不 科学 , 可 能 存 
态 选 取 初 始 聚 类 中 心 , 考虑 了 样本 集 密度 对 聚 类 的 影响 , 但 构 。” ”在 实际 密度 相差 较 大 的 数据 点 密度 参数 相同 , 可 能 导致 高 密度 
造 最 小 生成 树 较 大 程度 上 增加 了 算法 开销 。 文 献 [5] 和 文献 [6] ”点 在 中 心 点 选取 过 程 中 被 移 除 , 降低 初始 中 心 点 质量 ,文献 [11] 
都 根据 整个 样本 集 数据 分 布 选取 初始 中 心 点 , 忽略 了 真实 聚 类 ”将 canopy 算法 思想 与 密度 相 结合 ， 可 以 更 好 地 处 理 低 密度 区 
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域 数据 ,自动 确定 类 中 心 个 数 ， 只 有 遍历 完全 部 数据 点 后 才 会 ”时 同样 通过 随机 选取 已 有 样本 点 的 方法 .可 以 说 这 也 符合 本 文 
亭 止 ， 没 有 考虑 聚 类 效果 ,存在 噪声 点 、 离 群 点 时 很 可 能 将 其 ”的 直觉 : 聚 类 中 心 互 相 离 得 越 远 越 好 。 这 个 改进 虽然 直观 简单 ， 
归 为 单独 一 类 ， 影 响 聚 类 效果 和 类 中 心 个 数 精度 。 却 非常 有 效 ， 很 好 地 改进 了 K-means 算法 初始 中 心 点 选择 [17 
聚 类 中 心 点 的 选取 原则 是 首先 周围 点 相对 较 密 集 ,其 次 聚 ” 的 随机 性 。 概 率 计算 函数 为 
类 中 心 点 之 间距 离 相 对 较 远 , 即 具有 很 好 的 分 布 性 , 防止 陷入 


已 部 屋 作 全 关 人 和 、 六 由 改 , 首 亲 ， D(x) 
局 部 最 优 解 。 为 解决 初始 中 心 点 选择 和 聚 类 中 心 数 问题 ， 本 文 i 
XEX 


提出 基于 距离 和 密度 的 d-K-means 算法 , 采用 加 权 的 方法 权衡 

密度 与 距离 的 关系 , 在 全 局 范围 求解 , 使 中 心 点 的 选取 更 契合 其 中 : X 是 聚 类 问题 中 点 的 集合 ; D (x) 函数 的 定义 为 计算 
数据 分 布 情况 ,减少 算法 和 大 代 次 数 。 通 过 计算 数据 集 规模 和 数 点 到 最 近 已 选 聚 类 中 心 的 距离 。 观察 概率 函数 发 现 , 低 密度 区 
据 间 距离 得 到 每 个 点 不 同 的 权 值 。d-K-means 算法 基于 “最 小 域 的 噪声 点 有 较 大 可 能 被 选 为 聚 类 中 心 , 使 属于 此 类 中 心 点 的 
最 大 原则 ?选择 聚 类 中 心 ， 避 免 了 初始 聚 类 中 心 选 择 随机 性 引 数据 过 少 ， 并 且 在 之 后 的 K-means 算法 和 迭 代 过 程 中 发 生 改 变 
起 的 局 部 最 优 解 问题 , 更 好 地 处 理 离 群 数据 和 低 密 度 区 域 数据 ， ”的 可 能 性 很 小 , 造成 达 不 到 磊 个 聚 类 中 心 应 有 的 分 类 效果 。 由 
同时 通过 权 值 及 BWP 指标 0 自动 确定 聚 类 中 心 个 数 。 本 文 算 两 个 徐 构 成 的 数据 集 ,其 中 一 个 簇 含 有 一 个 噪声 点 如 图 2 所 
法 通过 与 四 种 算法 在 五 个 数据 集 上 进行 实验 对 比 , 验证 了 本 文 示 。 从 图 3、4 的 实验 数据 可 以 看 到 -meanst+ 算 法 对 数据 身 
提出 的 算法 能 明显 提高 聚 类 效果 质量 以 及 聚 类 准确 率 。 的 划分 共有 两 种 情况 ， 值 得 注意 的 是 即使 不 考虑 噪声 点 ， 
K-means++ 算 法 也 无 法 得 到 正确 的 聚 类 结果 0 。 
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1 ”相关 算法 


1.1 Canopy-Kmeans 算法 
Canopy 聚 类 算法 03449 是 在 K-means 算法 对 数据 进行 预 分 
类 的 算法 ， 并 且 可 以 在 人 为 无 法 确定 聚 类 中 心 个 数 时 通过 
canopy 生成 的 大 圆 个 数 来 近似 设置 。canopy 通过 两 个 人 为 确 从 人 
定 的 阔 值 4 和 2 对 数据 集 进 行 处 理 ， 可 以 将 混乱 的 数据 分 类 i 
成 若干 个 有 一 定 规则 的 数据 堆 。 划 分 后 的 数据 集 分 类 效果 如 图 0 电 | 
1 所 示 。 该 算法 流程 如 下 : 66688 HHHP 
1) 确定 两 个 阔 值 上 、2 (11>2) 。 se. HHHD 
2) 从 数据 集合 中 随机 选 出 一 个 数据 ， 计 算 这 个 数据 到 
canopy 的 距离 (如 果 当 前 没有 canopy, 则 该 点 直接 作为 canopy 图 2 由 两 个 簇 构成 的 数据 集 ,其 中 一 个 簇 含有 一 个 噪声 点 
中 心 点 ) 。 Fig.2 Data set composed of two clusters,one of the clusters contains a 
3) 如 果 这 个 距离 小 于 妇 ， 则 给 这 个 数据 标 上 弱 标 记 ， 将 noise point 
tl 加 入 这 个 canopy 中 (同时 这 个 数据 可 以 作为 新 的 canopy 来 
计算 其 他 数据 到 这 个 点 的 距离 ) 。 是 
4) 如 果 这 个 距离 小 于 有 2， 则 给 这 个 数据 标 上 强 标 记 ， 
将 其 中 数据 集合 中 删除 ， 此 时 认为 这 个 数据 点 距离 该 canopy 
已 经 足够 近 了 ， 不 需要 形成 新 的 canopy。 e000e seee 
5) 重复 2~4 的 过 程 ， 直 至 数据 集合 中 没有 数据 。 > 
ee@eee@ee eoeee 
eeeee @e@e@e@ 
eeeee ee@e@ee 
eeee@ee @e@e@e 
名 oes. 6888 
Vy 


“Es 


zo 图 3 K-means++ 算 法 分 类 情况 一 
Fig.3 K-meanst+t+ algorithm classification case 1 


四 | conopy 分 类 时 二 -和 
Fig.1 Canopy classification effect - 一 时 - 四 - 一 六 
针对 分 类 数量 难以 确定 的 问题 , Canopy-Kmeans 算法 可 以 HHHEH HHEH 
通过 canopy 生成 的 大 圆 数量 近似 设置 聚 类 中 心 个 数 ， 但 算法 ooes sse 
实际 应 用 时 初始 Canopy 中 心 点 和 Canopy 区 域 大 小 等 初始 值 SS sees 
的 选取 好 坏 对 聚 类 质量 有 较 大 影响 。 
1.2 K-means++ 算 法 图 4 K-means++ 算 法 分 类 情况 二 
K-means++ 算 法 L519 按照 如 下 的 思想 选取 KK 个 初始 聚 类 Fig.4 K-meanst++ algorithm classification case 2 
中 心 : 假设 已 经 选取 了 n 个 初始 聚 类 中 心 (0<n<K)， 则 在 选取 1.3 DBSCAN 算法 
第 ntl 个 聚 类 中 心 时 距离 当前 个 聚 类 中 心 越 远 的 点 会 有 更 大 DBSCAN 算法 09 是 一 种 基于 高 密度 连通 区 域 的 基于 密度 
的 概率 被 选 为 第 z+1 个 聚 类 中 心 。 在 选取 第 一 个 聚 类 中 心 (o=1D) ”的 聚 类 算法 ,可 以 自动 确定 簇 的 数量 ,具有 噪声 应 用 ,通过 找 
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出 核心 对 象 并 与 其 邻 域 连接 形成 稠密 区 域 作 为 徐 。DBSCAN d-K-means 算法 参照 文献 [12] 提 出 的 一 种 新 的 聚 类 有 效 
的 概念 主要 有 : 指标 〈 称 为 BWP 指标 ) ， 根 据 BWP 指标 平均 值 的 变化 决定 


定义 1 邻 域 。 样 本 集合 刀 中 的 一 点 o，o 的 邻 域 表示 为 ”是否 继 续 中 心 点 的 选取 。BWP 指标 平均 值 的 计算 公式 为 
以 o 为 中 心 ，s 为 半径 的 a 维 超 球 体 区 域 。 1 & bjD)-wj,d) 


BWP(j,i) 


定义 2 ”核心 对 象 。 一 个 对 象 的 e- 邻 域 至 少 包 含 minPts Dishiej PhD) + wh) 
个 对 象 。 其 中 : 了 为 数据 集 规模 大 小 ;20D、w0D 定 义 如 下 : 
定义 3 直接 密度 可 达 。 样本 集合 D 中 , 若 对 象 4 在 核心 存在 n 个 数据 对 象 的 数据 集 S， 假 设 n 个 数据 对 象 被 划 
对 象 p 的 e- 邻 域内 ， 则 gq 是 从 p 的 直接 密度 可 达 。 分 到 个 类 中 ， 定 义 第 j 类 的 对 象 i 的 类 间距 离 50,i) 为 该 样 
定义 4 密度 可 达 。 样 本 集合 DD 中 , 若 存 在 一 个 点 链 pi1、 本 到 其 他 每 个 类 中 样本 平均 值 中 的 最 小 值 ， 定 义 第 j 类 的 对 


2.… pn， 对 于 pie D(1<i<n), 且 prt 是 从 直接 密度 可 达 , 则 。 象 ;的 类 内 距离 w( 为 该 数据 对 象 到 /类 中 其 他 数据 对 象 距 
点 pa 从 pi 密度 可 达 。 离 的 平均 值 ， 公 式 如 下 : 
定义 5 密度 相连 。 若 存在 对 象 。， 使 对 象 p 和 对 象 q 都 
从 o 密 度 可 达 ， 则 pp 和 g 密度 相连 。 
DBSCAN 算法 优点 是 能 够 基于 密度 分 布 发 现任 意 形状 的 ， 
秘 ， 可 以 很 好 地 克服 K-meanst+ 的 缺陷 ， 但 它 的 缺点 Po 与 大 st, lp 
部 分 对 K-means 改进 的 算法 相同 ， 初 始 中 心 点 的 选择 前 提 是 > 
点 的 e- 邻 域内 数据 点 密度 大 , 邻 域内 密度 低 的 点 会 被 标记 为 噪 ”其 中 : c 和 j 表示 类 标 ，n。 表 示 类 c 的 元 素 个 数 ，xmo 表 示 第 
声 , 有 可 能 剔除 的 正 是 用 户 所 关心 的 数据 ,影响 最 终 分 类 精度 。 ”< 类 的 第 p 个 数据 对 象 ， wi0 表 示 第 类 的 第 i 个 对 象 。 观 察 
同时 ， 半 径 s 和 最 小 支持 度 minPts 的 设 定 比较 敏感 。 上 式 可 知 : b(,i) 越 大 类 间 分 离 性 越 好 ，w0j) 越 小 类 内 紧密 性 
越 好 ， 则 BWP 指标 值 越 大 聚 类 效果 越 好 。 
2.2 d-K-means 算法 描述 
2.1 基本 定义 d-K-means 算法 根据 如 下 方法 依次 选取 中 心 点 : 基于 “最 
d-K-means 算法 中 有 关 距 离 的 计算 均 使 用 欧 几 里 德 距离 ， ”小 最 大 原则 ”, 每 次 选取 中 心 点 指标 值 最 大 的 数据 点 作为 实验 
本 文 参照 文献 [19] 依 据 贪心 策略 不 断 的 自 适应 计算 数据 点 p 的 。” 聚 类 中 心 进行 预 分 类 ， 即 把 所 有 数据 点 归 为 距离 自身 最 近 的 
半径 ， 计 算 公 式 为 中 心 点 代表 的 类 中 ， 比 较 预 分 类 前 后 所 有 数据 点 BWP 指标 
平均 值 的 变化 。 若 BWP 指标 平均 值 变 大 ， 则 此 点 成 为 聚 类 
中 心 ， 参照 canopy 聚 类 算法 思想 ， 新 聚 类 中 心 的 e- 邻 域内 数 
中 ， pneareul9 表 示 与 点 最 近 的 k 个 点 ，d( ) 表 示 点 间 的 欧 据点 不 参与 接 下 来 中 心 点 的 选取 。 同 时 ， 新 聚 类 中 心 的 产生 
几 里 德 距离 ; 大 值 在 二 维 空间 聚 类 中 一 般 取 420， 其 他 情况 可 可 能 会 使 数据 点 的 最 近 中 心 点 变化 ， 因 此 每 产生 一 个 中 心 点 
取 数 据 集 的 la/25jP3 (其 中 : n 为 数据 样本 总 数 ，|] 表 示 向 下 取 。” 便 更 新 一 次 全 部 数据 的 中 心 点 指标 。 若 BWP 指标 平均 值 变 
整 》。 根 据 对 象 p 与 其 e- 邻 域内 对 象 9 的 距离 计算 p 的 权 值 ， ”小 或 不 存在 数据 点 可 被 选取 则 停止 选取 中 心 点 ， 通 过 上 述 广 
对 权 值 进行 加 工 得 到 每 个 数据 的 中 心 点 指标 C， 计 算 公式 为 。 法 可 以 自动 确定 大 个 聚 类 中 心 。 
d-K-means 算法 中 心 点 的 选取 思想 实际 聚 类 效果 类 似 ; 
聚 类 中 心 之 间 有 一 定 距离 ， 聚 类 中 心 周围 的 点 密度 较 大 。 观 
中 ，wp 为 数据 点 p 的 权 值 ， 反 映 了 点 p 的 邻 域 密度 ，0s 为 。 察 权 值 计算 公式 可 以 发 现 ， 数 据点 周围 密度 越 大 ， 数 据点 权 
数据 点 与 距离 自身 最 近 的 中 心 点 1 间 的 距离 , 计算 公式 分 别 。 值 越 大 。 将 “最 小 最 大 原则 ”应 用 在 中 心 点 指标 上 ， 那 么 如 果 
为 一 个 数据 点 权 值 较 大 ， 且 距离 类 中 心 点 距离 较 远 ， 则 此 点 被 
选 为 中 心 点 的 可 能 性 较 大 。 
聚 类 开始 时 无 中 心 点 ， 数 据 的 中 心 点 指标 缺少 9 参数 无 


有 LN 人 (c) (i 
= = xD 
a dl 


2 d-K-means 算法 


1 
= 天 人 Pe_nearest(i)) 


~ 


Cp=wp *0p 


Ee 


Op = mind(i, p) 


WwW -出 rnge—d(p,g) 法 计算 。 由 于 当 数 据 对 象 在 给 定 空间 范围 内 数据 点 越 多 ， 说 
range 明 该 数据 对 象 作为 聚 类 中 心 店 更 有 利于 目标 函数 的 收敛 ， 所 


其 中 : 表示 现 有 中 心 点 个 数 ，m 表示 数据 点 p 的 s- 令 域内 数 。” ”以 选取 权 值 最 大 的 点 作为 第 一 个 中 心 点 ， 利 于 提高 簇 内 紧密 
据 对 象 数 量 ，range 代表 数据 集 向 量 空间 的 大 小 ， 计 算 方 法 与 性， 也 符合 文献 [8,9] 的 中 心 点 选取 思想 和 实际 聚 类 效果 : 中 


欧式 距离 计算 方法 相同 ， 计 算 公 式 为 心 点 周围 密度 较 大 。 中 心 点 选取 过 程 如 图 5~8 所 示 。 算 法 首 
wanee= Semin 先 选 择 权 值 最 大 点 作为 第 一 个 中 心 点 ， 然 后 根据 中 心 点 指标 
z=0 依次 选取 了 两 个 中 心 点 。 由 于 产生 第 四 个 中 心 点 时 BWP 指 

其 中 : x 表示 数据 集 维度 max、min 代表 数据 集 相应 维度 特 。”” 标 平均 值 减 小 ， 所 以 停止 选取 ， 得 到 前 三 个 中 心 点 。 
征 的 最 大 值 和 最 小 值 ; | 表示 欧 氏 距离 的 平方 ，range 值 实 d-K-means 算法 通过 权 值 和 中 心 点 指标 的 引入 权衡 了 距 
质 上 是 数据 集 全 部 维度 范围 的 模 , 点 p 的 - 邻 域内 每 个 数据 ” ” 离 和 密度 对 聚 类 的 影响 ， 中 心 点 指标 的 引入 让 与 当前 聚 类 中 
会 为 wp 贡献 0-1 的 值 ， 距 离 点 p 越 近 ， 贡 献 值 越 大 。 心 距离 较 远 ,但 权 值 并 不 大 的 低 密度 区 域 数据 也 可 能 成 为 聚 
此 外 ，wp 值 越 大 ， 点 p 周围 数据 越 多 ， 数 据 越 集中 。9。 ”类 中 心 。 通 过 “最 小 最 大 原则 ”和 第 一 个 中 心 点 的 选择 策略 消 


值 越 大 , 点 与 已 产生 的 聚 类 中 心 距 离 越 远 。wp 与 bp 相 乘 得 。 除了 初始 中 心 点 选择 的 随机 性 。 通 过 BWP 指标 的 引入 与 
到 的 中 心 点 指标 Cp 越 大 , 簇 内 越 紧密 ,两 个 簇 之 间 的 相 异 程 。 canopy 算法 思想 的 结合 ， 算 法 可 以 自动 确定 类 数 ;， 同时 ， 通 
度 越 高 。K-means 算法 时 耗 主要 由 达 代 次 数 决 定 ， 通 过 中 心 ”过 BWP 指标 增 减 决定 是 否 继续 选择 中 心 点 ， 可 以 避免 因 结 
点 指标 选择 聚 类 中 心 可 有 效 减 少 K-means 算法 迭代 次 数 , 担 ” 合 canopy 算法 思想 而 在 面 对 离 群 数据 与 噪声 数据 时 将 其 选 
高 算法 时 间 性 能 。 为 单独 一 类 的 情况 ， 保 证 了 聚 类 效果 的 质量 。 
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G e) 若 BWp 指标 平均 值 增加 ,此 数据 点 成 为 聚 类 中 心 ,使 其 =- 邻 域内 的 
数据 不 参与 接 下 来 中 心 点 的 选取 , 转向 步 又 6; 若 BWP 指标 平均 值 减 小 ， 
转向 步 台 8g)。 
f) 若 存在 可 以 聚 类 的 数据 点 ， 转 向 步骤 c)， 否 则 转向 步骤 g)。 
O G g) 将 产生 的 中 心 点 作为 初始 聚 类 中 心 执行 k-means 算法 , 得 到 最 终 聚 
6 类 结果 。 
max(w) os” 算法 流程 如 图 9 所 示 。 
壕 ， S O 
O 


n 个 数据 对 象 集合 X 


图 5 步骤 一 


Fig.5 Stepl 


OE 
经 


选择 最 大 权 值 数据 点 作为 第 一 
个 聚 类 中 心 


计算 每 个 数据 点 的 中 心 点 指 


标 ， 选 取 中 心 点 指标 最 大 的 数 
据点 进行 预 分 类 


计算 预 分 类 后 BWP 数 据点 平均 
BMP 指标 值 


BWP 指 标 平均 值 


图 6 步 又 二 
Fig.6 Step2 


将 产生 的 中 心 点 作为 初试 聚 类 中 心 执 
行 K-means 算 法 ， 得 到 最 终 聚 类 结果 


图 9 ”d-K-means 算法 流程 
Fig.9 Flow chart of d-K-means algorithm 
3 ”实验 数据 
3.1 数据 集 
为 了 验证 d-K-means 算法 在 选取 初始 聚 类 中 心 的 有 效 性 ， 
选取 了 专门 用 于 测试 聚 类 算法 性 能 的 UCI 数 据 集 和 美国 气象 


图 7 步骤 三 局 气候 分 类 数据 (Weather) 。UCI 是 加 州 大 学 提出 的 用 于 机 
Fig.7 Step3 器 学 习 的 数据 库 ， 是 一 个 常用 的 标准 测试 数据 集 ， 实 验 数据 


nt 


集中 都 有 明确 的 分 类 ， 因 此 可 以 直接 观察 到 聚 类 的 质量 。 实 
验 对 Iris、Wine、Seeds、Pima、Weather 五 个 数据 集 进 行 测 
试 ， 将 BWP 指标 、 兰 德 指 数 、 轮 廓 系数 、Jaccard 系数 、 夺 
代 次 数 、 准 确 率 作 为 性 能 指标 ， 与 传统 K-means 算法 、 
K-means++ 算 法 、 文 献 [10] 算 法 、 文 献 [11] 算 法 进行 比较 ， 表 
1 为 数据 集 参 数 情 况 。 


表 1 数据 集 描述 
Table 1 “Description of data set 


数据 集 样本 数 每 征 数 类 数 
Iris 150 4 3 
图 8 步骤 四 Wine 178 13 3 
Fig.8 Step4 Seeds 210 7 3 
2.3 d-K-means 算法 流程 Pima 768 8 
输入 : n 个 数据 对 象 的 集合 X。 Weather 19 2 4 
输出 : R 个 聚 类 中 心 。 3.2 实验 结果 
a) 计算 n 个 数据 的 半径 和 权 值 。 1) 在 UCI 数据 集 上 的 测试 
b) 选择 最 大 权 值 数据 点 作为 第 一 个 聚 类 中 心 。 数据 集中 不 同 的 特征 往往 具有 不 同 的 量 纲 , 这 样 的 情况 会 
c) 计算 每 个 数据 点 的 中 心 点 指标 ， 选 取 中 心 点 指标 最 大 的 数据 点 进行 。 影响 到 最 终 的 分 类 效果 。 为 了 消除 指标 之 间 的 量 纲 影响 ， 对 数 
预 分 类 。 据 进行 了 归 一 化 的 预 处 理 , 使 每 个 特征 处 于 同一 量 级 , 合理 地 
d) 计算 预 分 类 后 n 个 数据 点 平均 BNP 指标 值 。 参与 算法 的 执行 。 具 体 使 用 的 是 Min-Max Scaling 方法 。 
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对 于 拥有 i 个 特征 的 数据 集 , 对 每 个 特征 进行 归 一 化 处 理 10~15 分 别 为 为 本 文 算法 与 四 种 对 比 算法 在 Iris、Wine、 

3]， 公 式 如 下 : Seeds、Pima 数据 集 上 对 应 的 BWP 指标 、 兰 德 指数 、 轮 廓 系 
x —min(x;) 数 、Jaccard 系数 、 和 迭代 次 数 、 准 确 率 。 


~ max(x;)—min(x;) 


BMP 指标 


0.2 一 4 一 k-means 算法 一 各 一 文献 [11] 算 法 0.2 上 一 k-means 算法 一 一 文献 [11] 算 法 0.2 
一 (一 k-means++ 算 法 ”一 全 一 本文 算法 vil 一 一 k-means++ 算 法 一 各 - 本 文 算法 
9 一 e 一 文献 [10] 算 法 和 一 e 一 文献 [10] 算 法 
3 Wine Seeds Pima 040 Tis Wine Seeds Pima 0 
示 据 和 数据 集 
图 10 BWP 指标 图 11 兰 德 指 数 
Fig. 10 BWP index Fig. 11 Rand index 


下 k-means 站 法 一 文献 [11] 算 法 外 一 4 一 k-means 算法 一 一 文献 [11] 算 法 0.6[ 
0.1 一 全 kr-means++ 算 法 一 和 一 本 文 算法 一 k-means++ 算 法 一 和 一 本 文 算法 

一 9 一 文献 [10] 算法 一 e 一 文献 [10] 算 法 
Se Vine ds T 0 一 0. 

数据 集 lris Wine 
数据 集 
图 13 ”Jaccard 系数 图 14 和 友 代 次 数 
Fig. 13 Jaccard coefficient Fig. 14 Number of iterations 


Www 
0 


~ Iris Wine Seeds Pima 


一 晤 - 文献 [11] 算 法 
本 文 算法 


I 
Iris Wine Seeds Pima 
数据 集 


图 12 轮廓 系数 


Fig. 12 Contour coefficient 


一 人 一 k-means 算法 一 和 文献 [11] 算 法 
一 一 k-meanst+ 算 法 一生 一 本 文 算法 
一 0 一 文献 [10] 算 法 


数据 集 
图 15 准确 率 
Fig. 15 Accuracy 


从 图 10~13 的 实验 结果 可 以 看 出 , d-K-means 算法 得 出 的 。 ”要塞 测 量 数据 及 所 属 类 别 , 数据 分 布 离散 , 低 密 度 区 域 数据 较 
聚 类 结果 的 BWP 指标 、 兰 德 指数 、 轮 廓 系数 和 Jaccard 系数 ” 多 ,实验 根据 对 湿度 和 华氏 温度 两 个 特征 对 这 些 地 点 进行 分 类 ， 
明显 优 于 传统 K-means 算法 、K-means++ 算 法 与 文献 [10] 算 法 。 ”相同 的 ,对 湿度 和 华氏 温度 进行 了 归 一 化 处 理 。 表 2 为 Weather 
原因 是 K-means 算法 随机 选取 初始 中 心 点 , K-means++ 算 法 中 数据 。 图 16 为 数据 分 布 图 。 将 d-K-means 算法 与 K-means 算 


心 点 选取 时 虽然 融入 了 距离 , 使 与 已 产生 的 中 心 点 距离 远 的 数 ”法 、K-means++ 算 法 、 


文献 [10] 算 法 、 文 献 [11] 算 法 在 Weather 


据 更 有 可 能 被 选 为 下 一 个 聚 类 中 心 , 但 选择 仍 存在 随机 性 , 而 ”数据 集 上 运行 ， 所 得 聚 类 结果 及 准确 率 如 表 3 所 示 。 


文献 [10] 算 法 根据 密度 参数 选择 初始 中 心 点 ， 在 计算 密度 参数 


时 , 没有 考虑 数据 间 的 距离 ， 密 度 参数 计算 不 科学 ， 影响 初始 . 
聚 类 中 心 的 质量 。 在 Tis、Wine、Seeds 数据 集 上 ，d-K-means 

算法 与 文献 [11] 算 法 得 出 的 聚 类 结果 的 BWP 指标 值 与 兰 德 指 

数值 基本 相同 ， 在 Pima 数据 集 上 ，d-K-means 算法 取得 的 聚 G0.6 
类 结果 的 BWP 指标 值 与 兰 德 指 数值 优 于 文献 [11] 算 法 ， 原 天 上 
是 Pima 数据 集 有 缺失 值 ， 而 文献 [11] 算 法 易 受 离 群 点 、 噪 声 0.4 
点 影响 , 通过 实验 结果 可 以 发 现 本 文 算法 对 样本 的 聚 类 效果 较 . 
好 ,并且 能 更 好 地 处 理 异常 情况 ， 鲁 棒 性 较 好 。 同 时 ， 本 文 算 a 
法 在 四 个 数据 集 上 聚 类 结果 的 BWP 指标 \ 轮廓 系数 和 Jaccard 5 


12@ 


14e 
16 11 


系数 表现 都 是 最 好 的 , 说 明 使 用 d-K-means 算法 可 以 得 到 更 好 
的 聚 类 效果 : 更 高 的 类 内 紧密 度 与 类 间 分 离 度 。 
在 实验 过 程 中 发 现 ， 由 于 K-means 算法 与 K-meanst++ 算 


hn 
0.0 0.2 


图 16 数据 分 布 图 


法 初始 聚 类 中 心 的 选取 都 具有 一 定 随机 性 , 导致 准确 率 和 和 迭代 Fig. 16 Data distribution diagram 


次 数 不 稳 定 ， 因 此 对 两 种 算法 进行 10 次 实验 ， 取 实验 结果 的 文献 [10] 算 法 与 文献 [11] 算 法 结合 了 canopy 思想 ,中心 点 


平均 值 进行 对 比 。 从 图 14 与 15 可 以 看 出 , 除了 在 Seeds 数据 的 数据 集 平 均 距离 范 
集 上 本 文 算法 准确 率 比 文献 [11] 算 法 稍 差 以 外 ， 本 文 提出 的 式 为 
d-K-means 算法 在 其 他 数据 集 上 迭代 次 数 与 准确 率 都 是 最 优 
的 , 可 见 d-K-means 算法 处 理 低 维 数据 和 高 维 数据 时 都 可 以 取 
得 较 好 的 聚 类 效果 与 效率 。 


围 内 的 数据 不 参与 接 下 来 的 聚 类 , 计算 公 


MeanDis(D)= 


2 x) 
XX, 
nn-DiAajan 7 


于 Weather 数据 集 的 数据 离散 度 较 高 , 数据 集 平均 距离 


2) 在 Weather 数据 集 上 的 测试 较 大 ， 导 致 文献 [10] 算 法 与 文献 [11] 算 法 得 不 到 正确 的 分 类 数 。 
Weather 数据 集 包括 美国 气象 局 2018 年 9 月 12 日 的 交通 本 次 实验 中 ，K-means 算法 通过 随机 选取 确定 初始 聚 类 中 心 ， 
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选取 的 点 分 别 为 (0.134,0.86)、(0.413,0.873)、(0.531,0.229)、 取 数 据 4、 数 据 11、 数 据 10、 数 据 6 为 初始 聚 类 中 心 ， 算 法 
0.912,0.875)。 在 随后 的 迭代 过 程 中 ， 没 有 任何 数据 属于 前 两 ”迭代 三 次 ， 准 确 率 为 57.9%。 
个 初始 中 心 点 ， 导 致 只 生成 两 类 ， 算 法 迭代 三 次 ， 准 确 率 为 文献 [10] 算 法 通过 寻找 数据 点 固定 距离 内 的 点 确定 密度 
52.6%。 参数 ,数据 集 平均 距离 为 0.523 5, 依次 选取 数据 8、 数 据 16、 

K-means++ 算 法 在 选取 中 心 点 时 考虑 了 距离 ， 距离 已 产 9 数据 1 为 初始 聚 类 中 心 , 选 完 上 述 三 点 后 数据 集中 不 存在 点 可 
中 心 点 远 的 数据 更 有 可 能 被 选 为 下 一 个 聚 类 中 心 , 第 一 个 中 心 。 以 被 选 为 聚 类 中 心 ， 因此 生成 三 类 , 算法 迭代 两 次 , 准确 率 为 
点 的 选取 是 随机 的 , 剩余 中 心 点 的 选取 也 存在 随机 性 。 依 次 选 ” 68.4%。 

表 2 美国 地 区 气候 数据 统计 


Table 2 Statistical table of regional climate data in the United States 


让 甘 日 本 | 


让 


mT 


标识 城市 名 称 - 3 一 到 类 别 
原始 标准 后 原始 标准 后 
1 Caliente 20% 0.04 23 0.139 Red Flag Warning 
2 Winnemucca 43% 0.31 27 0.194 Red Flag Warning 
3 BRIGHAM 53% 0.43 34 0.292 Red Flag Warning 
4 Sand Springs Smt 17% 0 34 0.292 Red Flag Warning 
5 DEXTER 20% 0.04 13 0 Red Flag Warning 
6 FORT ROCK 80% 0.76 26 0.181 Frost Advisory 
了 Alturas 61% 0.53 30 0.236 Frost Advisory 
8 Lake County Airport 59% 0.51 31 0.25 Frost Advisory 
9 Oklahoma City 57% 0.48 29 0.222 Frost Advisory 
10 Klamath Falls International 66% 0.59 35 0.306 Frost Advisory 
11 Conway Horry County 100% 1 68 0.764 Hurricane Warning 
12 Duplin County 100% 1.00 85 1 Hurricane Warning 
13 Georgetown County 100% 1.00 70 0.792 Hurricane Warning 
14 North Myrtle Beach Grand Strand 96% 0.95 69 0.778 Hurricane Warning 
15 Marysville Municipal 93% 0.92 39 0.639 Hazardous Weather 
16 Blosser Municipal 86% 0.83 61 0.667 Hazardous Weather 
17 Newton City 89% 0.87 58 0.625 Hazardous Weather 
18 Deep Creek US 76% 0.71 49 0.5 Hazardous Weather 
19 RUBY VALLEY 75% 0.70 51 0.528 Hazardous Weather 
表 3 算法 运行 结果 比较 
Table 3 Comparison of algorithm running results 
gs Hurricane Warning Hazardous Weather Frost Advisory Red Flag Warning ”和 达 代 次 ey 
人 地 点 标识 地 点 标识 地 点 标识 地 点 标识 数 
K-means 算法 无 11,12,13,14,15,16,17,18,19 1,2,3,4,5,6,7,8,9,10 无 3 0.526 
K-means++ 算 法 11,12,13,14,15,16,17 6 2,3,7,8,9,10,18,19 1,4,5 3 0.579 
文献 [10] 算 法 B 11,12,13,14,15,16,17,18,19 2,3,6,7,8,9,10 1,4,5 2 0.684 
文献 [11] 算 法 无 11,12,13,14,15,16,17 2,3,6,7,8,9,10,18,19 1,4,5 2 0.684 
本 文 算法 11,12,13,14 15,16,17,18,19 2,3,6,7,8,9,10 1,4,5 2 0.895 


文献 [11] 算 法 与 文献 [10] 算 法 思想 类 似 ,依次 选取 数据 8、 化 ,为 了 节约 时 间 , 自动 选择 聚 类 中 心 个 数 的 需求 也 越 来 越 大 。 
数据 14、 数 据 1 为 初始 聚 类 中 心 ， 选 完 上 述 三 点 后 数据 集中  ”d-K-means 算法 通过 权 值 与 中 心 点 指标 的 引入 权衡 了 距离 与 
不 存在 点 可 以 被 选 为 聚 类 中 心 , 因此 生成 三 类 ,算法 迭代 两 次 ， ”密度 的 关系 ， 相 对 于 K-means 算法 容易 受 初 始点 选择 的 影响 


准确 率 为 68.4%。 陷入 局 部 最 优 以 及 需要 手动 选择 中 心 点 个 数 的 缺陷 , 基于 距离 
d-K-means 算法 中 每 个 数据 的 s 半径 都 是 自 适 应 计算 的 ， ”和 密度 的 d-K-means 算法 不 仅 可 以 自动 选择 中 心 点 个 数 , 并 且 
忆 此 使 中 心 点 的 s- 邻 域 数据 不 参与 进一步 的 聚 类 更 加 科学 ， 聚 类 效果 更 好 ， 在 迭代 速度 以 及 分 类 准确 性 上 都 有 所 提高 。 
d-K-means 算法 中 数据 权 值 的 计算 结合 了 数据 间 的 距离 , 相 
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